#다국어 지원

마이크로소프트, 오픈소스 최고 수준 음성 AI '바이브보이스' 공개

마이크로소프트가 장문 음성 처리 및 구조화된 전사에 특화된 음성 인식(ASR) 및 합성(TTS) 오픈소스 모델 패밀리인 '바이브보이스(VibeVoice)'를 공개했습니다. 이 모델은 최대 60분의 오디오를 한 번에 처리하고 발화자 구분, 타임스탬프, 내용을 구조화하여 출력하는 것이 가장 큰 특징입니다. 50개 이상의 언어를 지원하며, 최근에는 허깅페이스(Hugging Face) 트랜스포머 라이브러리와 vLLM 추론 통합을 통해 실무 적용이 매우 용이해졌습니다.

음성 인식 텍스트 음성 변환 마이크로소프트

The Decoder • 104일 전

IMP 7

구글, 70개 이상 언어를 지원하는 가장 표현력 뛰어난 Gemini 3.1 TTS 공개

구글이 텍스트를 자연스러운 음성으로 변환해주는 'Gemini 3.1 Flash TTS' 모델을 공개했습니다. 이 모델은 70개 이상의 언어를 지원하며, 스타일과 속도, 톤을 세밀하게 조정할 수 있는 새로운 오디오 태그 기능을 제공합니다. 이를 통해 개발자들은 전 세계 다양한 언어권에서 사용자 경험을 크게 향상시키는 고품질 음성 서비스를 구축할 수 있습니다.

음성 생성 (TTS) 구글 (Google) Gemini 3.1

MarkTechPost • 104일 전

IMP 7

구글 AI, 표현력과 제어력을 강화한 'Gemini 3.1 Flash TTS' 공개

구글이 음성 품질과 표현력 제어, 다국어 생성 기능을 집중적으로 개선한 프리뷰 텍스트 음성 변환(TTS) 모델인 Gemini 3.1 Flash TTS를 공개했습니다. 이번 릴리스는 자연어 오디오 태그, 70개 이상의 언어 기본 지원 및 다중 화자 대화를 특징으로 합니다. 이는 단순한 텍스트 변환을 넘어, 기존의 '블랙박스' 음성 생성 방식에서 탈피해 더욱 정교하게 제어 가능한 AI 음성 생성으로의 전환을 알리는 중요한 의미를 지닙니다.

인공지능 음성 합성 텍스트 음성 변환